生物信息百Jia软件(十九):cope
通哥点评
cope也是华大团队出品的一款软件,和SOAP系列其他软件类似,功能强大,使用简单,支持多种模式进行具有overlap的pairend reads进行连接,连接的效果非常不错,其实我觉得要比flash,fastq-join这些工具好用的。
一、功能分类:
Pairend Read连接工具
二、软件官网:
http://sourceforge.net/projects/coperead/
三、软件介绍:
Cope的全称是 (Connecting Overlapped Pair-End reads) ,连接具有overlap关系的双末端测序reads。主要应用于illumina测序数据。illumina测序采用双末端测序,只测序一条序列的两端,中间区域是不测序的。例如一条500bp的片段,两端各测序100bp,中间的300bp是不测序的现在的miseq测序已经可以达到双末端300bp。这种情况下,两条reads中间就有overlap重叠,中间的100多bp被测序了两次。所以,可以将测序的两条reads连接起来了,连成一条更长的片段。如果是500bp文库,pair-end双末端测序,那么理论上可以连接成500dp的reads。
四、下载安装:
wget https://netix.dl.sourceforge.net/project/coperead/bin/cope-v1.2.5.tgz
tar -zxvf cope-v1.2.5.tgz
cd cope-v1.2.5
make
五、软件使用:
直接敲cope命令就会屏幕输入软件的帮助信息。
-a 输入reads1 文件,可以为fasta或者fastq格式,支持压缩
-b 输入reads2文件
-o 输出连接好的长reads文件
-2 reads1中没有参与连接的reads
-3 reads2中没有参与连接的reads
-l 发生连接overlap的下限阈值,默认是10,也就是两条reads之间的overlap大于10bp就发生连接
-u 发生连接overlap的上限阈值,默认是70
-c 匹配错误率的阈值
-B 质量值为2的比率阈值
-N 过滤连接时包含的N碱基
-T 先选择一定数量的reads来作为训练
-s 质量值体系,这个我们在多款软件中有提到了,这里面默认是phred 64的模式,现在一般是phred+33的质量值体系,这个地方需要注意一下。
-m 是运行的模式,cope有四种种运行模式。
六、使用案例:
cope -a reads.1.fq.gz -b reads.2.fq.gz -o connect.fq -2 left1.fq -3 left2.fq -m 0 -s 33 >cope.log 2>cope.error
七、注意事项:
1、连接reads之前要知道文库大小,确认pairend之间有overlap。
2、overlap碱基位于reads的尾部,这部分区域错误率相对高一些,因此必须允许一定的连接错配。